গত ২ দিন নামপাই ও ম্যাটপ্লটলিব নিয়ে লিখার পর আজকে লিখব পান্ডাস নিয়ে। পাইথন ডাটা বিশ্লেষণের একটি গুরুত্বপূর্ণ টুল এটি। এর মাধ্যমে যে কোন ডাটাকে আপনি বিশেষ অবকাঠামো দিতে পারবেন যার ফলে সেই ডাটা থেকে আপনি আপনার মন মত তথ্য সহজে বের করে আন্তে পারবেন। যেখানে পান্ডাস ছাড়া বহু ফাংশনের সাহায্য নিতে হত আর অনেক প্রোগ্রামিং নিজেকেই করতে হত, পান্ডাস থেকে আপনি পাচ্ছেন ডাটা এক্সপ্লরেশনের জন্য যুদশই একগাদা ফাংশন ও কার্যপ্রণালী। যা মেনে চললে আপনার ডাটা নিয়ে খেলা করার মজা যেমন বাড়বে, তার সাথে বাড়বে ডাটা থেকে তথ্যে পরিণত করার দ্রুতি (প্রোগ্রামার ও প্রোগ্রামিং দ্রুতি দুটোই)।
পান্ডাস (pandas) নামটি এসেছে প্যানেল (PANel) ও ডেটা (DAta) এর সাথে প্লুরাল s যুক্ত করে। এটি মূলত যে কোন সোর্স থেকে ডাটা নেয় আর আপনার ফাংশন কল অনুযায়ী সেই ডাটাকে নিজের কিছু উপাত্ত কাঠামতে ফালিয়ে দেয়, যার উপর আপনি ডাটাবেসের মত অপারেশান চালাতে পারবেন। উদাহরণস্বরূপ, ধরুন আপনি কোন ওয়েবসাইট স্ক্রেপ করে কিছু ট্যাবুলার ডাটা পেয়েছেন যা দ্বিমাত্রিক এবং যেখানে বেশ কিছু মিসিং সেল রয়েছে, আবার টেব্ল সংখ্যাও একাধিক যাদের মধ্যে কমন সদস্য আছে। আপনি সেই ডাটা থেকে ইনফর্মেশন বের করতে চান, অর্থাৎ ডাটার "মর্ম" বের করতে চান। পান্ডাস কিভাবে সাহায্য করতে পারে আপনাকে এখানে?
প্রথমে আসি ডাটা কালেকশনে, আপনি কি কি ভাবে ডাটা পেতে পারেন? পাইথনের বেশ ভাল কিছু ওয়েবসাইট স্ক্রেপিং টুল রয়েছে, ওগুলো থেকে আপনি আপনার ডাটাকে csv, excel ইত্যাদি ফরম্যাটে ফেলতে পারেন। খেয়াল রাখতে হবে যে, ডাটাবেজে যেমন ডাটা গঠিত থাকে অথবা আপনি অন্তত পক্ষে ডাটার অবকাঠামো জানতে পারেন, এই দুনিয়াতে তা কিন্তু না, আপনি এক নজরে আপনার সোর্স (ওয়েবসাইট, কপি পেইস্ট করা ডাটা ইত্যাদি) দেখে জাই বুঝবেন না কেন, অই ডাটার মাঝখানে কোন গ্যাপ আছে কিনা, আর কোন ভ্যালিডেশন কাঠাম ফলো করতেছে কিনা তা কিন্তু কোন গ্যারান্টি দিয়ে বলা হয়নি। আর মাঝে মাঝে আপনি হয়ত লাকি হতে পারেন যখন API এর বদৌলতে JSON, YAML, XML, ইত্যাদি ডাটা পাচ্ছেন কিন্তু যখন মাল্টিপল সোর্স থেকে আসবে? এখানে আগে ডাটা পাবেন, এরপর কাঠাম বুঝবেন, কাজেই রিলেশনাল ডাটাবেজ দিয়ে তেমন ফায়দা হবে না, হলেও আপনাকে সেইরকম লেভেলে মাইগ্রেশনের প্রস্তুতি নিতে হবে যা অনেক বেদনাদায়ক। পান্ডাস আপনাকে দিয়েছে কিছু ফাংশন যা দিয়ে আপনি বিভিন্ন সোর্স থেকে ডাটা নিয়ে পান্ডাস রিডাব্ল করে মধ্যবর্তী কিছু ডাটা কাঠামোতে ফেলতে পারবেন।
পান্ডাসের নিজস্ব কিছু উপাত্ত কাঠাম রয়েছে, যা ডাটা বিশ্লেষণকে সহজতর করে, এরা হল মধ্যবর্তী অবস্থা, সোর্স থেকে ডাটা হজম করে আপনাকে দিবে খেলা করার সুযোগ, আর একই সাথে এরা খুব সহজে ম্যাটপ্লটলিব চিত্রে পরিণত হতে পারে, আর সর্বোপরি, কাজ শেষে পরিণত হতে পারে যে কোন ফরম্যাটে, তা ডাটাবেজ হোক, এক্সেল হোক, আর হোক এইচটিএমএল। ডাটা এক্সপ্লরেশনের জন্য অনেক গুরুত্বপূর্ণ এইসব ডাটা স্ট্রাকচার।
ডাটা স্ট্রাকচার মানেই গঠন, মিশ্রণ, সম্পর্ক। এইগুলো সব আপনি পাইথন প্রোগ্রামিং দিয়ে করতে পারছেন উপরিউক্ত কাঠামগুলোতে, আবার, এদের সারমর্ম অর্থাৎ পরিসংখ্যানগত তথ্য পেয়ে যাবেন এক কলমেই। দুইটি আলাদা আলাদা কাঠামতে আপনি গ্রুপিং করতে পারবেন আর জয়েন করতে পারবেন রিলেশনাল ডাটাবেজের মতই, তার উপর আবার পাইথন ফাংশনের মাধ্যমে ডাটা রূপান্তরও অনেক সহজ হয়ে যায়।
আমার আগের একটি পোস্টে ম্যাটপ্লটলিব নিয়ে অনেক কথা বলেছিলাম, ম্যাটপ্লটলিব অনেক সহজে পান্ডাস কাঠামগুলোকে আঁকতে পারে। পান্ডাসি অনেক ব্যবস্থা দিয়ে দেয় ম্যাটপ্লটলিবে আঁকার জন্য।
আমি আমার ডাটা সংক্রান্ত প্রথম পোস্টে লিখেছিলাম নামপাই এর কথা। অত্যন্ত দ্রুত ও শক্তিশালী এই লাইব্রেরিটি কিন্তু পান্ডাসের ভিত্তি, কাজেই বুঝা যাচ্ছে, পান্ডাস অত্যন্ত পারফরম্যান্ট।
এক কথায়, আপনার ডাটা কালেকশনের পর যে খেলাধুলার পর্ব থাকে, যার মাধ্যমে আপনি ডাটা থেকে কিছুটা মর্ম বের করে আনেন পরবর্তী এনালাইসিসের জন্যে, সেখানে পান্ডাস অদ্বিতীয় ভূমিকা রাখতে পারে। আর যদি আপনার মাঝারি ধরনের ডাটা থাকে এবং আপনি চান দ্রুতগতি সম্পন্ন রিপোর্ট দিতে, সেখানেও পান্ডাস আপনার খেলার সাথী।
আমার মেশিনে পান্ডাস pip install pandas
করাতেই হয়ে গিয়েছে। যদি নামপাই আর ম্যাটপ্লটলিব থাকে আপনার কাছে, তাহলে পান্ডাস ইন্সটল করতে এর বেশি কিছু লাগার কথাও না।
এবার কিছু কোডিং দেখান যাক। (অর্থাৎ, ipython notebook --pylab=inline --no-browser এর আসল উপকারিতা ল্যাভ করা যাবে এখন ;) )
In [10]:
# pd, np, plt <----- এগুলো সব হল কনভেনশন।
import numpy as np
from matplotlib import pyplot as plt
import pandas as pd
ইমপোর্ট করা হল আমাদের মুল নায়কদের, আর এইবার আমি ম্যাটপ্লটলিবে plt.xkcd()
কার্টুন আনছি না। তাই চিত্রগুলো একটু সিরিয়াস কিসিমের হবে :/
পান্ডাসের সহজতম কাঠামো হল সিরিজ। এটি ndarray এর মতই, কিন্তু একটু বেশি ক্ষমতাবান।
In [8]:
ser = pd.Series(np.random.randn(10)) # নামপাই মনে আছে? এটি হল ১০ র্যান্ডম সদস্যের একটি অ্যারে।
তো আমাদের এই ১০ সদস্যের এই অ্যারেটির মধ্যে এমন কি আছে যা map(random.random(), range(10))
এর নেই? আপাতদৃষ্টিতে তেমন কিছু না, কিন্তু যদি আরেক্টু দেখি-
In [46]:
ser_0 = pd.Series(range(10))
ser_1 = pd.Series(np.random.randn(10), index=list("abcdefghij"))
ser_2 = pd.Series({"Dhaka": 42.0, "Chittagong": 36.0, "Sylhet": 29.0})
In [22]:
ser_1[ser_1 < 0] # সমস্ত ঋণাত্মক নাম্বার।
Out[22]:
In [24]:
ser_2[["Dhaka", "Sylhet"]] # শুধু ঢাকা ও সিলেট।
Out[24]:
অনেকটা জাভাস্ক্রিপ্টের মত, ser_2.Dhaka আর ser_2["Dhaka"] একই কথা।
In [26]:
assert ser_2.Dhaka == ser_2["Dhaka"]
print ser_1.a
এসাইন্মেন্ট করা কমন সেন্সের ব্যাপার
In [29]:
ser_2.Sylhet = 30.0 # সিলেটের তাপমাত্রা ১ ডিগ্রী বাড়ল!
print ser_2
প্লট করতে চান? যেভাবে আপনি চিন্তা করছিলেন সেভাবেই হয়!
In [32]:
ser_1.plot()
Out[32]:
ডিফল্ট প্লটে খুশি না? আপনি ম্যাটপল্টলিবের মত প্যারামিটার পাস করতে পারবেন সহজেই!
In [43]:
ser_2.plot(kind="barh", color="orange", alpha=0.6, legend=True, rot=30)
Out[43]:
একটা স্টাইল মনে আছে? নামপাইতে যে আপনি একটি অপারেশান করতেন আর অই অ্যারে এর সমস্ত সদস্যরা সে অপারেশান পেত? একে বলা হয় ব্রডকাস্টিং। যেমন আপনি যদি বলেন arr = np.array([1,2,3]); arr = arr + 10
তাহলে arr হবে np.array([11, 12, 13])। এই অভ্যাসটা পান্ডাসের ডাটাগুলিতেও আছে। ধরুন সবার তাপমাত্রা ৩ ডিগ্রী কমে গেল।
In [51]:
ser_2 = ser_2 - 3.0 # সবাই পেয়েছে মাইনাসের মেসেজ, তাই হয়ত একে ব্রডকাস্ট বলে।
print ser_2
কে কতবার আছে জানতে চান? ব্যবহার করুন value_counts কিন্তু যেহেতু আমাদের আগের সিরিজগুলোতে কোন রিপিটেশন নেই তাই নতুন সিরিজ তৈরি করি। ওয়ার্ল্ড কাপ গোল সংখ্যা পারফেক্ট হবে এখানে।
In [22]:
data = dict(Klose=16,
Ronaldo=15,
Muller=14,
Fontaine=13,
Pele=12,
Klinsmann=11,
Kocsis=11,
Batistuta=10,
Cubillas=10,
Lato=10,
Lineker=10,
TMuller=10,
Rahn=10)
ser = pd.Series(data)
দেখা যাক আগে এদের প্রিন্টে কেমন লাগে আর অতঃপর গ্রাফে কেমন লাগে।
In [29]:
print ser
In [30]:
print ser.value_counts()
In [34]:
figure = plt.figure()
ax_1 = figure.add_subplot(2, 1, 1)
ax_2 = figure.add_subplot(2, 1, 2)
ser.plot(ax=ax_1, linestyle="--", marker="o", color="black")
ser.value_counts().plot(ax=ax_2, kind="bar", color="green", alpha=0.7)
Out[34]:
পান্ডাসের প্রথম এবং সহজতম উপাত্ত কাঠামো সিরিজ নিয়ে এই ছোট আলোচনা সমাপ্ত করে পরবর্তী কাঠামো ডাটাফ্রেম নিয়ে কথা বলব এর পরের পোস্টে। স্টে টুন্ড!!!